L’Analyse Factorielle Multiple (AFM) est une méthode d’analyse de données multivariées permettant de résumer et de visualiser un tableau de données complexe, dans lequel les individus sont décrits par plusieurs ensembles de variables (quantitatives et qualitatives) structurés en groupes.
L’AFM prend en compte la contribution de tous les groupes actifs de variables afin de définir la distance entre les individus. Le nombre de variable dans chaque groupe peut différer et la nature des variables peut varier dans groupe à l’autre, mais les variables doivent être de même nature dans un groupe donné.
Cette analyse globale, dans laquelle plusieurs ensembles de variables sont considérés simultanément, nécessite d’équilibrer les influences de chaque ensemble de variables. Par conséquent, dans l’AFM, les variables sont pondérées lors de l’analyse. Les variables du même groupe sont normalisées en utilisant la même valeur de pondération, qui peut varier d’un groupe à l’autre. Techniquement, l’AFM attribue à chaque variable du groupe j, un poids égal à l’inverse de la première valeur propre de l’analyse de l’ACP du groupe j.
L’analyse factorielle multiple peut être utilisée dans de nombreux domaines où les variables sont organisées en groupes.
Dans notre cas, on se trouve dans un contexte où un même individu (une souris) est observé à des temps différents. Dans cette situation, il existe deux façons de définir les groupes de variables :
- On peut rassembler les variables observées au même temps dans un groupe.
- Lorsque les variables sont identiques d’une date à l’autre, chaque ensemble peut rassembler les différentes dates pour une même variable.
Nous allons appliquer la première méthode dans laquelle les variables observées sont regroupées par temps.
Les deux premières dimensions permettent d’expliquer 41% de la variance totale de nos données. Le critère du coude semble nous indique de conserver les deux premières dimensions de l’AFM.
Le graphique ci-dessous illustre la corrélation entre les groupes et les dimensions. Les coordonnées des 5 groupes actifs (les 5 temps) sur la première dimension sont presque identiques. Cela signifie qu’ils contribuent de manière similaire à la première dimension. En ce qui concerne la deuxième dimension, les groupes 1 month, 2 months, 3 months ont des coordonnées beaucoup plus élevée que les groupes before-surgery et 1 week, ce qui signifie qu’ils contribuent davantage sur la deuxième dimension. De plus, on observe que la variable groupe placée en supplémentaire (ce qui signifie qu’elle ne contribue pas à la construction des axes) est fortement corrélée à la deuxième dimension et quasiment pas à la première ; ce qui indique que c’est la deuxième dimension qui permet de discrimer sur le groupe.
Après avoir analysé l’impact des groupes sur chaque dimension. On cherche à savoir au sein de chaque groupe (temps) quelles sont les variables les effets des variables sur les dimensions.
Le cercle de corrélation ci-dessous montre l’association entre les variables, la qualité de représentation des variables, ainsi que la corrélation entre les variables et les dimensions : - les variables corrélées positivement sont regroupées, tandis que celles corrélées négativement sont positionnées sur les côtés opposés de l’origine du graphique. - la distance entre les variables et l’orgine mesure la qualité des variables sur le graphique. Plus un point variable est loin de l’origine meilleure est sa représentation. - Pour une dimension donnée, les variables les plus corrélées à la dimension sont proches de la dimension.
On représente le cercle de corrélation pour les deux premières dimensions, en représentant uniquement les 10 variables qui contribuent le plus à la construction des deux premières dimensions.
On représente le cercle de corrélation pour les deux premières dimensions, en représentant uniquement les variables qui contribuent à la construction de la deuxième dimension.
On représente la contribution de chaque variable à la définition des dimensions 1 puis 2, les variables sont colorées par groupe. La ligne en pointillé rouge sur le graphique indique la valeur moyenne attendue, si les contributions étaient uniformes. Ainsi une variable contribue fortement lorsque sa contribution se situe au dessus de cette ligne.
On observe que les variables qui contribuent à la dimension 1 sont :
Les variables qui contribuent à la dimension 2 sont :
Les individus ayant des profils similaires sont proches sur le graphique. On observe que les individus du groupe des MS se placent dans la partie supérieure du graphique, tandis que les individus du groupe de HD et NG se placent dans la partie inférieure, de plus on n’arrive pas à distinguer ces deux groupes. Il s’agit donc de la deuxième dimension qui distingue les groupes
On réalise enfin un apprentissage non supervisé à partir de l’AFM, afin de savoir si on retrouve les groupes auxquels appartiennent les souris.
On obtient que l’on arrive très bien à repérer les MS seulement un faux positif et 2 faux négatifs, de plus on a du mal à distinguer les HD des NG.
Comme vu précédemment, il s’agit de la deuxième composante principale de l’AFM qui permet de distinguer le groupe des MS des deux autres groupes, l’idée va donc être d’utiliser cette deuxième composante comme un score composite qui résume l’information des autres scores.
| Model 1 | Model 2 | |
|---|---|---|
| (Intercept) | -1.01 (0.34)** | -0.29 (0.36) |
| time1 week | 0.40 (0.47) | |
| time1 month | 0.71 (0.47) | |
| time2 months | -0.03 (0.47) | |
| time3 months | -0.94 (0.47)* | |
| groupHD | 0.97 (0.45)* | 0.87 (0.47) |
| groupMS | 1.55 (0.42)*** | 0.03 (0.44) |
| time1 week:groupHD | -0.51 (0.62) | |
| time1 month:groupHD | -2.74 (0.62)*** | |
| time2 months:groupHD | -1.87 (0.62)** | |
| time3 months:groupHD | -1.30 (0.62)* | |
| time1 week:groupMS | -0.54 (0.58) | |
| time1 month:groupMS | 0.34 (0.58) | |
| time2 months:groupMS | 1.35 (0.58)* | |
| time3 months:groupMS | 2.97 (0.58)*** | |
| num_time | -0.23 (0.13) | |
| num_time:groupHD | -0.40 (0.17)* | |
| num_time:groupMS | 0.78 (0.16)*** | |
| AIC | 1606.88 | 1591.52 |
| BIC | 1675.96 | 1632.16 |
| Log Likelihood | -786.44 | -785.76 |
| Num. obs. | 430 | 430 |
| Num. groups: id | 86 | 86 |
| Var: id (Intercept) | 0.11 | 0.54 |
| Var: Residual | 2.20 | 1.85 |
| Var: id num_time | 0.16 | |
| Cov: id (Intercept) num_time | -0.30 | |
| ***p < 0.001; **p < 0.01; *p < 0.05 | ||